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【 目的 】 以 大 规模 真实 社交 网 络 数据 作 支 撑 研 究 饮 


摘要 : 


食 社 区 结构 。[ 方法 】 使 用 “美食 杰 ” 网 站 的 菜谱 信息 和 


新 浪 微 博 上 与 莱 有 关 的 微 博 数据 ,完成 用 户 与 菜 之 间 的 “ 提 及 "关系 构建 后 ,分 别 在 省 份 地 区 维度 和 地 区 菜系 维 
度 进行 映射 ， 并 运用 社区 发 现 算法 进行 社区 挖掘 。[ 结果 ] 在 省 份 地 区 关系 网 和 地 区 菜系 关系 网 上 存在 明显 的 社 
区 结构 。[ 局 限 】 实 验 过 程 中 发 达 地 区 人 数 与 边缘 地 区 人 数 悬 殊 太 大 ,对 本 文 所 得 结论 有 一 定 的 影响 。[ 结论 】 


实证 结 


发 现 : 省 份 地 区 被 划分 成 “其 他 口味 "、“ 鲜 咸 味 "、“ 香 辣 味 ”三 个 口味 地 区 ;“ 川 菜 ”、 


特 很 少 与 其 他 菜系 被 一 起 点 餐 ,“ 京 菜 ”、 
一 定 程度 的 地 理 位 置 近邻 性 。 
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”、“ 东 北 莱 " 常 被 一 起 点 餐 ， 除 此 之 外 ,地 区 菜系 之 间 存在 
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饮食 是 人 类 社会 豆 古 不 变 的 生活 主题 , 也 是 人 类 
从 事 其 他 社会 活动 的 基础 和 前 提 。 随 着 生产 力 的 发 展 ， 
尤其 是 农业 的 发 展 , 中 国人 对 于 “ 吃 ? 已 不 仅仅 是 果 腹 
那么 简单 ， 围 绕 着 “ 吃 ” 产 生 了 一 系列 饮食 文化 ， 如 饮 
食 风 俗 .饮食 思想 ,饮食 行为 等 .饮食 文化 作为 与 “ 吃 ” 
“ 喝 ” 相 关 的 一 种 文化 现象 ， 它 不 分 种 族 国 界 ， 与 每 个 
人 息息相关 , 因此 开展 中 国 饮食 文化 研究 很 有 必要 。 
尽管 目前 关于 饮食 文化 研究 跨越 不 同 的 学 科 种 类 , 研 
究 方法 也 各 具 特 色 , 研究 成 果 也 十 分 丰富 , 但 多 数 研 
究 使 用 的 是 对 菜谱 的 定性 (如 对 饮食 文化 的 发 生 、 发 展 
脉络 的 梳理 ) 和 定量 分 析 ( 如 对 关于 饮食 文化 的 文献 、 
史料 进行 统计 整理 ) 方 法 。 实 际 上 ，, 随 着 互联 网 和 大 数 


据 技 术 的 发 展 , 将 有 利于 在 很 大 规模 的 真实 数据 集 上 
开展 饮食 相关 的 研究 , 通过 真实 数据 集 的 挖掘 验证 一 
些 重 要 结论 , 其 至 发 现 一 些 新 的 有 实际 价值 的 结论 ， 
因此 本 文 开展 基于 菜谱 与 微 博 用 户 饮 食 评论 的 饮食 社 
区 挖掘 人 研究 。 


2 相关 研究 概述 


目前 , 我 国 研 究 饮食 文化 的 群体 主要 是 高 等 院 
校 的 学 者 、 饮 食 行 业 的 从 业者 、 文 学 作家 四。 相对 
其 他 学 科 而 言 , 学术 界 对 于 饮食 文化 的 研究 起 步 较 
晚 ， 且 近 几 年 学 术 界 开 始 着 手 利用 真实 数据 来 研究 
饮食 文化 。 总 结 现 有 研究, 笔者 发 现 常 被 用 来 研究 
饮食 文化 的 两 类 真实 数据 有 : 菜谱 数据 和 用 户 饮 食 
数据 。 


通讯 作者 : 章 成 志 , ORCID: 0000-0001-8121-4796, E-mail: zhangcz@njust.edu.cn。 
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“在 线 社交 网 络 中 基于 用 户 的 知识 组 织 模式 研究 (项目 编 号 :14BTQ033)、 安 徽 省 教育 厅 人 文 社会 科学 项 
目 “ 基 于 社交 网 络 的 交叉 学 科 知 识 发 现 及 其 应 用 研究 ”( 项 目 编号 :SK2016A0025) 和 江苏 省 数据 工程 与 知识 服务 重点 实验 室 开 放 课 题 “在 线 社 
兴趣 演变 研究 ”( 项 目 编 号 :DEKS2014KT006) 的 研究 成 果 之 一 。 


在 上 述 两 类 真实 数据 中 ,借用 菜谱 数据 分 析 的 研 
究 有 : Wagner 等 外 通过 常见 的 复合 调味 料 (Flavor 
Compounds) 中 包含 的 豪 饪 食材 共 现 关系 构造 风味 网 
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志 进 行 分 析 (2012 年 8 月 -2013 年 11 月 ), 发 现 用 户 的 
饮食 偏好 : 用 户 对 菜谱 的 偏好 主要 取决 于 菜 的 香料 ; 
菜谱 偏好 分 布 存 在 的 地 区 差异 大 于 香料 偏好 分 布 在 划 
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络 (Flavor Network), 通过 风味 网 络 发 现 西 方 京 饪 时 个 
向 于 使 用 多 种 香料 形成 多 种 口味 混合 ， 比 较 满足 所 谓 
食物 配对 假设 (Food Pairing Hypothesis); 相反 ,东亚 
地 区 毫 饪 时 反对 这 样 。Ahn 等 中 分 析 多 个 国家 和 地 区 
的 56 498 份 菜 谱 , 发 现 西 方 和 东方 的 饮食 差别 很 大 ， 
西方 最 爱 用 的 6 种 食材 是 牛奶 、 黄 油 、 香 草 、 鸡 蛋 、 
蔗糖 桨 和 小 麦 ， 而 东方 是 桨 油 、 葱 、 香 油 、 米 、 大 豆 
和 姜 。 不 仅 如 此 ,西方 的 厨师 喜欢 把 有 很 多 共同 香料 
的 食材 放 进 同一 道 菜 里 面 ， 而 东方 厨师 反对 这 样 。Zhu 
等 外 利用 从 美食 杰 网 站 上 采集 到 的 20 个 菜系 的 8 498 
道 菜 谱 和 2 911 种 食材 , 结合 菜系 所 在 省 市 地 理 位 置 和 
气候 条 件 的 相似 性 , 分 析 发 现 地 理 上 的 相近 性 对 于 食 
材 使 用 的 影响 远 远 大 于 气候 的 相近 性 , 另外 针对 食材 
使 用 矩阵 (两 个 维度 分 别 是 菜系 和 食材 ), 通过 简单 的 主 
成 分 分 析 找到 了 云贵 菜 和 香港 菜 这 两 个 异常 菜系 。 

在 上 述 两 类 真实 数据 中 , 借用 用 户 饮食 数据 分 析 
的 研究 有 : Ahn 等 中 对 大 型 菜谱 网 站 (ichkoche.at) 的 日 


< 信息 


下 上 


区 上 的 差异 ; 用 户 工 作 日 的 饮食 偏好 与 周末 的 饮食 
好 存在 明显 不 同 。Abbar 等 外 根据 Twitter 上 21 万 用 户 
的 饮食 Tweet 及 用 户 兴 趣 、 地 理 位 置 和 社交 网 络 数据 ， 
分 析 发 现 食物 的 热量 与 当地 肥胖 比率 存在 一 定 关联 ， 
二 者 皮尔 逊 相关 系数 接近 0.77, 并 基于 人 口 统计 变量 
和 Twitter 上 提 及 的 食品 名 称 构建 预测 地 区 肥胖 和 糖 
尿 病 人 数 的 模型 。 

总 结 上 述 研究 ,笔者 发 现 有 关 饮 食 社区 挖掘 的 研 
究 尚 不 多 见 ， 而 饮食 社区 挖掘 不 仅 能 深层 次 地 挖掘 地 
区 用 户口 味 ， 而 且 可 以 发 现 用 户 点 菜 风格 ,为 用 户 点 
菜 提供 指导 。 因 此 本 文 结合 菜谱 数据 与 用 户 饮 食 评 论 
数据 进行 饮食 社区 挖掘 的 研究 。 


3 ”研究 思路 及 关键 技术 


3.1 研究 思 
结合 菜谱 数据 和 微 博 用 户 饮 食 评论 数据 对 饮食 社 
区 进行 研究 , 研究 思路 如 图 1 所 示 : 


新 浪 微 博 "I 


”数据 采集 与 预 处 理 


用 户 评论 分 记 
提取 用 户 与 菜 的 提 及 关系 


3 | [ea] 
提取 菜 名 | 一 一 | 美食 太 
字典 “| 与 菜系 


映射 到 省 份 


省 份 -省 份 带 权 图 


关系 映射 


社区 发 现 


陵 射 ,用户 与 菜 的 二 部 图 | 暴 所 /映射 到 菜系 


图 1 饮食 社区 挖 握 研 究 思 


(1) 数据 采集 与 预 处 理 。 从 “美食 杰 ” 网 站 上 采集 荣 
谱 名 称 、 菜 系 等 信息 , 在 对 “美食 术 " 网 站 上 采集 到 的 
菜 名 经 过 简单 预 处 理 后 ， 以 菜谱 名 称 作为 搜索 关键 词 
从 新 浪 微 博 上 扑 取 微 博 内 容 及 微 博 用 户 信息 。 采 集 用 
户 微 博 数 据 后 , 将 菜谱 名 称 作 为 用 户 字典 加 入 分 词 包 ， 


最 终 完成 对 用 户 评论 内 容 的 有 效 分 词 。 

(2) 关系 映射 。 在 完成 用 户 评论 分 词 后 , 根据 分 词 
结果 提取 用 户 与 菜 名 的 “ 提 及 ”关系 ( 指 该 菜谱 名 称 出 
现在 用 户 的 微 博 评 论 内 容 中 ), 根据 用 户 所 在 省 份 及 菜 
所 属 的 菜系 进行 以 下 两 个 方面 的 映射 : 
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人 省 份 -省 份 关系 映射 。 由 于 用 户 有 省 份 信息 ， 如 果 不 
同 省 份 用 户 对 同一 道 菜 都 有 “ 提 及 ”， 可 以 认为 这 两 个 省 份 之 
间 存 在 某 种 共同 的 联系 ,如 这 两 地 区 用 户口 味 相近 等 ， 因 此 
可 以 根据 用 户 与 菜 之 间 的 “ 提 及 ”关系 ， 完 成 省 份 与 省 份 之 间 
相关 关系 的 映射 ; 

@) 菜 系 -菜系 关系 映射 。 同 样 ， 由 于 菜 有 菜系 信息 ， 如 果 
同一 个 用 户 同时 “ 提 及 ”到 不 同 的 菜系 ， 可 以 认为 这 两 个 菜系 
也 存在 某 种 相关 性 ， 因 此 可 以 根据 用 户 与 菜 之 间 的 “ 提 及 ” 关 
系 ， 完成 菜系 与 菜系 相关 关系 的 映射 。 

(3) 社区 发 现 。 在 完成 省 份 -省 份 关系 映 射 和 菜系 - 
菜系 关系 映射 后 ,选用 合适 的 社区 挖掘 算法 进行 饮食 
社区 挖掘 ， 并 完成 隐 含 的 省 份 之 间 关 系 和 隐 含 的 菜系 
之 间 关 系 的 分 析 与 结果 可 视 化 。 

3.2 关键 技术 

在 本 文 研究 中 , 社区 发 现 技 术 是 主要 技术 。 现 有 
社区 发 现 算法 很 多 ， 比较 经 典 的 方法 有 Girvan and 
Newman 的 GN 分 裂 算 法 路 、Newman 等 的 模块 度 最 大 
化 方法 加、Shi 等 的 归 一 化 割 (Normalized Cut, N-cut) 方 
法 外 ,Von Luxburg 的 基于 拉 普 拉 斯 矩阵 的 谱 平 分 方法 中 、 
LPA 算 法 趾 等 , 标签 传播 算法 (Label Propagation 
Algorithm，LPA) 是 Zhu 等 于 2002 年 提出 的 一 种 基于 
图 的 半 监 督学 习 方 法 , 其 基本 思想 是 用 已 标记 节点 的 
标签 信息 去 预测 未 标记 节点 的 标签 信息 。2007 年 ， 
Raghavan 等 1 首次 将 LPA 应 用 于 社区 发 现 ,， 并 在 
Zachary Karate 网 络 03、College Football 网 络 中 等 真实 
基准 网 上 进行 测试 , 结果 表明 LPA 的 社区 结构 检测 效 
果 良 好 。LPA 应 用 于 社区 发 现 的 步骤 如 下 : 

初始 化 网 络 中 所 有 节点 的 标签 , 依次 为 每 个 节点 分 
配 唯一 的 标签: 

@ 令 选 代 次 数 全 1; 

@ 随 机 排列 网 络 中 的 节点 ， 生 成 序列 X; 

图 按照 序列 X 中 的 顺序 对 义 中 的 每 个 节点 ww 使 用 
Lv =argmax |N'(v) | 更 新 自身 的 标签 , 其 中 N/'(v) 是 拥有 1 
标签 的 v 的 邻居 节点 集 。 如 果 存 在 多 个 标签 数量 最 多 时 ， 则 
随机 选择 其 中 一 个 ; 

@O 如 果 每 个 节点 具有 的 标签 都 是 其 邻居 节点 中 出 现 次 
数 最 多 的 标签 ， 算 法 停止 ， 否 则 令 ttt+1， 转 到 步骤 @@)。 

在 进行 社区 划分 时 ， 由 Newman 等 于 2004 年 提出 
的 模块 度 外 被 用 于 衡量 社区 划分 质量 , 模块 度 计 算 公 
式 如 下 : 


Dhttp://www.meishij.net. 
Dhttps://github.com/zhuyuxiao/Chinese-cuisine. 
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其 中 , Ai 是 网 络 图 的 邻接 矩阵 , m 是 图 中 边 的 总 
数 ，P; 表示 在 空 模 型 中 顶点 1 和 j 间 边 的 期 望 值 ， 如 果 


且 公 式 (D 在 邻接 矩阵 和 节点 度数 上 作 相 应 计算 后 亦 
可 以 使 用 在 带 权 图 上 m4， 因此 本 文 使 用 该 公式 作为 社 
区 划分 评判 依据 。 


4 实验 及 实验 结果 


4.1 实验 数据 集 

从 国内 知名 网 站 “美食 杰 ” 上 采集 20 个 菜系 的 菜 
谱 ， 菜 谱 信 息 主 要 包括 菜 名 、 菜 类 别 、 菜 系 、 荣 的 主 
料 、 辅 料及 菜 的 做 法 等 , 对 Zhu 等 所 的 菜 名 ”过 滤 后 ， 
得 到 包含 “川菜 ”"、“ 东 北 菜 ”、“ 港 台 菜 ”、“ 其 他 菜 ”、“ 湖 
北 菜 ”"、“ 沪 菜 ”、“ 徽 菜 "、“ 江 西 菜 ”"、“ 京 菜 ”"、“ 和 鲁 菜 ”、 
“ 浆 菜 ”、“ 清 真 菜 ”、“ 山 西 菜 ”"、“ 苏 菜 ”"、“ 西 北 菜 ”"、“ 湘 
的 5156 份 有 用 菜谱 ,各 个 菜系 的 数目 如 表 1 所 示 : 

表 1 各 个 菜系 下 菜谱 数目 统计 


i| 菜 743 东北 菜 227 
鲁 菜 598 徽 菜 143 
粤菜 491 西北 菜 119 
沪 菜 454 湖北 菜 109 
京 菜 380 殉 菜 104 
湘菜 370 港 台 莱 89 
闻 菜 286 江西 菜 87 

清真 菜 283 山西 菜 85 
浙 菜 271 云贵 业 51 
苏 菜 242 其 他 菜 24 


根据 表 1 中 的 菜 名 在 微 博 上 搜集 并 采集 相关 信息 ， 
最 终 累计 采集 到 来 自 36 个 不 同 地 区 (包括 用 户 填 写 的 
“其 他 ”和 “海外 ”的 地 区 在 内 ) 的 共计 3 980 597 个 用 户 
的 8 746 931 条 微 博 信息 。 其 中 , 各 条 微 博 信息 包括 用 
户 发 布 微 博时 间 、 微 博 内 容 、 用 户 省 份 、 用 户 和 性 别 
等 。 在 采集 到 相关 微 博 后 ， 先 将 保留 下 来 的 菜 名 作为 
用 户 字典 加 入 结巴 分 词 包 (jieba), 对 用 户 饮 食 微 博 内 


容 进行 分 词 切 分 , 在 用 户 微 博 内 容 的 分 词 结 果 中 只 提 
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表 2 不 同 地 区 的 用 户 数 统计 


取 包 含 在 菜谱 中 菜 名 内 容 后 , 得 到 2 269 763 个 用 户 与 地 区 ”用 户 数 ”地 区 用户 数 ”地 区 用户 数 
菜 之 间 的 “ 提 及 ”关系 , 作为 本 文 社区 发 现 的 主要 研究 广东 334681 河南 51404 山西 14414 
对 象 , 其 中 , 统计 “ 提 及 "关系 中 涉及 到 的 不 同 省 份 地 。 。 北京 “263762 辽宁 49950 新疆。 13433 
区 的 用 户 人 数 如 表 2 所 示 。 上 海 。 209 098 湖南 。 43 693 贵州 12 757 
2 we 
为 了 分 析 省 份 地 区 用 户口 味 及 菜系 在 用 户 点 餐 中 yj29 8g48 天 34089 内 站 二 。 8923 
的 情况 , 对 这 种 “ 提 及 ”关系 在 地 区 维度 和 菜系 维度 上 pe a Si i 
分 别 进行 映射 ， 得 到 地 区 -地 区 种 权 图 和 菜系 -菜系 带 其 他 128 597 广西 29 791 台湾 6450 
权 图 。 由 于 用 户 与 菜 之 间 “ 提 及 ”关系 的 规模 较 大 , 得 福建 98092 ”江西 ”24985 ”西藏 3 453 
到 的 带 权 图 规模 有 限 , 但 是 边 的 权重 很 大 ,以 各 个 地 湖北 71562 黑龙江 21724 ”宁夏 2 430 
区 及 各 个 菜系 为 例 , 给 出 最 亲密 ( 即 权 重 最 大 ) 的 节点 ， 山东 70590 云南 19846 青海 2.100 
如 表 3 和 表 4 所 示 。 重庆 57 772 吉林 14852 ”澳门 2 117 
表 3 地 区 映射 图 中 各 个 地 区 最 紧密 的 地 区 及 权重 
地 区 最 紧密 地 区 ( 权 值 ) 地 区 最 紧密 地 区 ( 权 值 ) 地 区 最 紧密 地 区 ( 权 值 ) 
青海 北京 (4 286) 宁夏 海外 (4 778) 海外 浙江 (200 138) 
辽宁 北京 (96 520) 湖南 其 他 (71 374) 陕西 浙江 (69 376) 
贵州 北京 (25 044) 台湾 海外 (12 466) 山西 浙江 (25 100) 
北京 广东 (385 844) 河北 其 他 (58 526) 新 疆 浙江 (22 374) 
广西 广东 (59 064) 西藏 江苏 (6 394) 四 上 浙江 (141 378) 
澳门 广东 (4 206) 其 他 海外 (224 654) 重庆 浙江 (87 692) 
广东 上 海 (338 516) 吉林 海外 (28 594) 湖北 浙江 (119 244) 
上 海 江苏 (252 126) 黑龙 江 海外 (41 092) 江苏 浙江 (216 320) 
海南 其 他 (20 254) 福建 浙江 (148 500) 河南 浙江 (91 806) 
甘肃 其 他 (14 630) 天 津 海外 (65 058) 浙江 浙江 (129 604) 
山东 江苏 (124 424) 内 蒙古 海外 (17 360) 香港 云南 (18 250) 
江西 其 他 (46 206) 安徽 江苏 (66 604) 云南 云南 (19 817) 
表 4 菜系 映射 图 中 各 个 菜系 最 紧密 的 菜系 及 权重 通过 表 3 可 以 看 出 , 除了 “其 他 ”海外 ”这 两 个 未 
某 系 最 紧密 的 0 知 地 区 外 , “浙江 ”、“ 江 苏 ” “广东 ”、“ 北 京 ” 地 区 与 其 
有 名 余 省 份 联系 极为 紧密 , 这 可 能 因为 这 些 地 区 人 数 较 多 
粤菜 粤菜 42 049 鲁 菜 鲁 菜 61 144 eo. i 
a 和 的 缘故 。 进 一 步 对 菜系 的 紧密 程度 进行 分 析 ， 如 表 4 
桨 。 泊 某 。 迷 04 洲 桨 测 井 731 上 导 寺 。 可 以 看 出 在 这 20 个 菜系 中 , 有 18 个 菜 宁 与 自 
川菜 | 菜 ”373359 ”西北 菜 ”西北 菜 21 559 身 “ 共 现 ”( 此 处 的 “ 共 现 ” 指 被 同一 个 用 户 提 及 ) 频 次 最 
0 je 和 9 Nes ， ee 高 ， 只 有 “ 京 全 ?与 “川菜 ? 共 现 最 高 ， 这 说 明 “ 川 菜 ?” 很 
苏 训 苏 训 40 233 菜 山 5 11 191 受用 户 喜爱 。 
A 
由 台 菜 ” 港 台 菜 18067 ” 沪 菜 沪 菜 103 096 在 完成 映射 后 , 笔者 试图 对 地 区 完全 带 权 图 和 菜 
江西 菜 ”江西 菜 。 16237 系 完全 带 权 图 进行 社区 发 现 , 但 发 现 这 个 完全 带 权 
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图 无 法 进行 社区 划分 , 经 过 多 次 迭代 后 , 模块 度 均 为 
0, 这 可 能 是 因为 完全 带 权 图 上 并 不 存在 通常 意义 上 
的 社区 ， 即 每 个 社区 内 部 节点 间 的 连接 相对 非常 紧密 ， 
但 是 各 个 社区 之 间 的 连接 却 相对 比较 稀 下 已 。 为 此 , 先 
对 这 两 个 完全 带 权 图 进行 断 边 处 理 ， 让 一 些 节 点 连接 
边 断 开 。 通 常 ， 断 边 操作 发 生 在 网 络 病毒 传播 的 控制 
过 程 , 用 于 有 效 抑制 病毒 的 传播 "中 本 文 应 用 断 边 处 
理 主要 是 因为 所 得 的 网 络 图 是 完全 图 不 适合 进行 社区 
划分 。 根 据 前 面 的 分 析 结果 ， 发 现 本 文 所 得 的 完全 图 
边 上 存在 权重 (反映 不 同 节 点 之 间 的 共 现 次 数 )， 节 
点 也 有 权重 (反映 节点 自身 共 现 的 次 数 )， 而 根据 吴 亮 
等 I 的 研究 ; 只 有 节点 权重 值 至 少 是 接近 的 两 节点 之 
间 ， 才 有 可 能 出 现 同步 或 者 说 至 少 是 两 节点 行为 之 间 
存在 关联 的 现象 - 因此， 如 果 节 点 权重 差距 悬殊 ,本 文 
认为 这 两 个 节点 很 难 划分 进 一 个 社区 (社区 通常 是 由 
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(a) 寻找 到 的 地 区 社区 划分 
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功能 相近 或 性 质 相 似 的 网 络 节 点 组 成 )。 为 此 ,笔者 切 
断 节 点 权重 悬殊 较 大 的 节点 之 间 的 边 , 经 过 多 次 实验 
测试 ,最终 选择 节点 间 的 边 权 作为 判别 节点 权重 差距 
巧 殊 ( 断 边 ) 的 依据 ,如 公式 (2) 所 示 : 


| W, — Wa |> Wepa 0O) 


其 中 ,，W,、W 分 别 代 表 节 点 p 和 节点 q 的 权重 , 
Wepq 是 节点 p 和 节点 q 之 间 边 E 的 权重 。 

公式 (2) 断 边 后 , 在 包含 自 连 接 的 含有 666 条 边 的 
地 区 完全 带 权 图 与 210 条 边 的 菜系 完全 带 权 图 边 数 分 
别 下 降 为 261 和 40。 对 断 边 后 的 地 区 带 权 图 与 菜系 带 
权 图 利用 LPA 进行 社区 发 现 , 分 别 执行 100 次 , 取 模 
块 度 最 大 的 结果 见 图 2(a)(Q=0.370) 和 图 3(a)(Q=0.695)， 
而 各 个 图 划分 前 的 结果 见 图 2(b) 与 图 3(b)( 图 2 和 图 3 
中 节点 大 小 反映 节点 与 自身 共 现 权重 大 小 , 边 粗细 反 
映 节 点 与 节点 间 共 现 权 重大 小 )。 


(b) 划分 前 的 地 区 关系 图 


图 2 地 区 -地 区 带 权 网 络 图 


(a) 寻找 到 的 地 区 菜系 划分 


(b) 划分 前 的 菜系 关系 医 


图 3 菜系 -菜系 带 权 网 络 图 


现代 图 书 情报 技术 


色相 同 的 为 一 个 社区 ): 


(1) 社区 1: 
(2) 社区 2: 贵州 、 
河北 、 吉 林 、 
陕西 、 山 西 、 新 疆 、 


古 、 安 徽 、 


澳门 、 
广西 、 


青海 、 


由 图 2 可 以 看 出 , 最 终 被 划分 为 三 个 社区 (邻居 颜 


宁夏 、 西 藏 ; 
云南 、 甘 肃 、 江 西 、 海 
黑龙 江 、 湖 南 、 


台湾 、 内 这 


香港 ; 


(3) 社区 3: 辽宁、 北京、 广东、 上 海 、 山 东 、 福 对 
重庆 、 湖 北 、 江 苏 、 
通过 划分 结果 可 以 直观 地 看 出 : 
(1) 社区 1 主要 由 自治 区 组 成 ; 


其 他 、 海 外 、 四 川 、 


[由 
世 


河南 、 浙 江 。 


(2) 2 3 主要 由 我 国 比 较 发 达 地 区 组 成 ,如 
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地 区 用 户 讨论 的 菜 ( 即 用 户口 
为 了 进 一 
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味 ) 比 较 接 近 。 


步 比 较 各 个 社区 内 用 户口 味 ， 对 各 个 社 


区 内 省 份 用 户 “ 提 及 ”的 菜 名 及 “ 提 及 ”次 数 进行 统计 ， 
得 到 次 数 居 前 的 Top7 菜单 见 表 5 左 侧 , 同时 对 这 些 地 
区 特色 菜 进行 提取 (通过 各 个 社区 内 前 100 的 菜 名 的 差 


集运 算得 出 ) 
通过 表 5 左 侧 数据 , 可 以 
对 “烤肉 、 


结果 见 表 5 右 侧 。 


看 出 各 个 社区 内 地 区 的 


“ 酸 辣 粉 、“ 毛 血 旺 ”等 菜 都 有 共同 的 爱好 ; 
通过 右 侧 数据 , 可 以 看 出 各 个 社区 用 户口 味 的 差异 菜 


单 ,结合 菜谱 数据 中 这 些 菜 的 口味 后 , 分 析 发 现 社区 1 
内 、 社 区 2 内 及 社区 3 内 的 地 区 特有 荣 分 别 属于 “其 他 


北京 、 上 上海、 广东、 江苏、 浙江、 福建 ， 说明 这 些 。 口味 "、“ 鲜 咸 味 "、“ 香 辣 味 ”。 
表 5 省 份 地 区 用 户 “ 提 及 ” 菜 统计 

社区 1 内 地 区 社区 2 内 地 区 社区 3 内 地 区 社区 1 内 地 区 社区 2 内 地 区 社区 3 内 地 区 
Top7 的 菜 Top7 的 菜 Top7 的 菜 特有 的 菜 特有 的 菜 特有 的 菜 
炒 鱼 条 烤肉 清汤 鱼 加 盐 爆 铠 鱼 卷 西红柿 炒 肉片 水 煮 活 鱼 
云 片 鹿角 菜 水 者 肉片 毛 血 旺 灯 影 牛肉 风霜 雪 叶 瓜 仁 西葫芦 
烤肉 清汤 鱼 贺 烤肉 焦 盐 子 储 蛋 酥 花 仁 六 月 鲜 
清汤 鱼 攻 毛 血 旺 春笋 白 拌 鸡 青椒 素 肉 丝 冬瓜 咸 肉 蛋 烧 麦 
麻辣 波 酸 闵 粉 水 者 肉片 是 油 聘 及 葫芦 鸡 莲 莲 豆腐 
酸 关 粉 粉 蒸 肉 酸 辣 粉 干 炸 肝 花 缠 丝 鸡 饼 香河 猪 足 
次 鲜嫩 鱼 腌 鲜嫩 鱼 炸 训 虹 仍 雪 银 虾 饼 古老 肉 干 锅 排 骨 
由 图 3 可 以 看 出 , 根据 菜系 共 现 关系 , 菜系 被 划 (2) 社区 1、 社 区 3、 社 区 4 体现 了 菜系 的 地 理 位 


分 成 以 下 9 个 社区 : 

(1) 社区 1: 湘菜 、 湖 北 菜 、 西 北 菜 、 清 真 菜 、 浙 菜 ; 

(2) 社区 2: 京 菜 、 沪 菜 、 和 鲁 菜 、 东 北 菜 ; 

(3) 社区 3: 粤菜 、 徽 菜 、 苏 羔 ; 

(4) 社区 4: Up 了 豫 菜 ; 

(5) 社区 5: 港 台 菜 、 江 西 菜 ; 

(6) 社区 6: 音 菜 ; 

(7) 社区 7: 川菜 ; 

(8) 社区 8: 云贵 菜 ; 

(9) 社区 9: 其 他 菜 。 

通过 划分 结果 可 以 直观 地 看 出 : 

(1) “川菜 ”"、“ 疮 菜 "、“ 云 贵 菜 ”"、“ 其 他 菜 ” 自 成 一 
体 。 其 中 “云贵 菜 ” 与 “其 他 菜 ” 被 分 成 独立 的 社区 , 与 文 
献 [和 中 发 现 的 结果 相 一 致 ; 


Dhttps://github.com/zhuyuxiao/Chinese-cuisine. 


置 近 邻 性 。 这 是 因为 : 根据 Zhu 等 外 的 研究 :“ 西 北 菜 ” 
起 源 于 “陕西 、 甘 肃 、 青 海 、 宁 夏 ”, “清真 菜 ” 起 源 地 “新 
疆 ”,“ 驳 菜 ” 起 源 于 “山东 ”， 因 此 这 几 个 社区 体现 了 菜 
系 具有 一 _ 定 的 地 理 位 置 近邻 性 。 

为 了 进一步 分 析 “ 川 菜 ”"、“ 云 贵 菜 ” 为 何 被 划分 成 
独立 菜系 及 解释 社区 2、 社 区 5, 基于 Zhu 等 认 辅料 ” 
为 粒度 ,进一步 分 析 各 个 菜 的 辅料 比例 (计算 方法 为 : 菜 
系 下 辅料 总 数 除 以 荣 系 下 菜 的 数目 ), 结果 如 表 6 所 示 。 
通过 表 6 可 以 发 现 ,“ 川 菜 ” 在 原料 方面 确实 比较 
nd 常见 的 油 盐 桨 醋 等 辅料 外 ,“ 花 椒 "、“ 胡 

权 ”“ 若 椒 ”"“ 豆 瘀 桨 ?等 也 较 多 地 被 使 用 ) “云贵 菜 ?” 
Se 很 少 使 用 “味精 ”调料 ， 而 较 多 地 使 用 
“是 ?>， 因 此 这 两 个 菜系 也 被 划分 成 独立 菜系 ; 另外 ， 
还 可 以 看 出 社区 2 内 “ 京 菜 ”“ 沪 菜 ”“ 重 菜 ”“ 东 
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表 6 地 区 菜系 辅料 使 用 比例 统计 


川菜 云贵 菜 京 菜 沪 菜 和 鲁 菜 东北 菜 江西 菜 港 台 菜 
盐 (0.87) 盐 (0.75) 盐 (0.83) 盐 (0.8) 盐 (0.89) 盐 (0.83) 盐 (0.84) 盐 (0.77) 
姜 (0.69) 料酒 (0.5) 香 萄 (0.69) 味精 (0.7) 香 萄 (0.7) 香 萄 (0.77) 味精 (0.69) 白糖 (0.51) 
香 芍 (0.66) ” 姜 (0.5) 姜 (0.68) 白糖 (0.67) 姜 (0.63) 姜 (0.67) 姜 (0.61) 香 萄 (0.47) 
味精 (0.63) ” 虾 (0.25) 味精 (0.68) 姜 (0.59) 味精 (0.6) 料酒 (0.44) 香 萄 (0.58) 酱油 (0.44) 
料酒 (0.47) ”冰糖 (0.25) 白糖 (0.51) 香 萄 (0.56) 淀粉 (0.46) 酱油 (0.44) 料酒 (0.46) 茵 (0.37) 
白糖 (0.47) “” 醋 (0.25) 料酒 (0.45) 酱油 (0.38) 料酒 (0.4) 白糖 (0.41) 酱油 (0.42) 胡椒 (0.26) 
酱油 (0.37) ” 猪 油 (0.25) 酱油 (0.42) 淀粉 (0.37) 酱油 (0.4) 味精 (0.41) 香油 (0.4) 味精 (0.26) 
茵 (0.33) 胡椒 (0.25) 淀粉 (0.41) 香油 (0.29) 白糖 (0.39) 花椒 (0.4) 猪 油 (0.36) 香油 (0.23) 
胡椒 (0.33) ”植物 油 (0.25) 香油 (0.3) 花生 油 (0.27) ”鸡蛋 (0.34) 蒜 (0.36) 淀粉 (0.27) 姜 (0.21) 
淀粉 (0.31) ” 低 筋 面 粉 (0.25) ”鸡蛋 (0.3) 黄酒 (0.27) 香油 (0.3) 淀粉 (0.28) 辣椒 (0.27) 鸡蛋 (0.19) 
花椒 (0.31) ” 白 胡 椒 (0.25) 花生 油 (0.23) ” 猪 油 (0.23) 茵 (0.24) 鸡蛋 (0.25) 鸡蛋 (0.27) 高 汤 (0.14) 
香油 (0.25) ” 香 萄 (0.25) 藉 (0.21) 料酒 (0.21) 醋 (0.23) 醋 (0.23) 胡椒 (0.25) 辣椒 (0.14) 
鸡蛋 (0.23) ” 香 芹 (0.25) 花椒 (0.21) 胡椒 (0.18) 花椒 (0.22) 香油 (0.17) 香菇 (0.24) 米酒 (0.14) 
醋 (0.22) 苏打 粉 (0.25) 醋 (0.2) 人 竹笋 (0.17) 植物 油 (0.2) 植物 油 (0.17) ” 蒜 (0.24) 太白 粉 (0.12) 
辣椒 (0.2) ”带鱼 (0.25) 黄酒 (0.18) 鸡蛋 (0.16) 菜 (0.17) 菜 (0.15) 猪肉 (0.22) 虾米 (0.12) 
豆 辩 桨 (0.19) 小 麦 面粉 (0.25) ” 猪 油 (0.17) 醋 (0.14) 胡椒 (0.17) 猪肉 (0.12) 白糖 (0.2) 麻油 (0.12) 


北 菜 ? 口 味 比 较 接 近 , 尤其 "东北 菜 ? 与 “和 鲁 菜 ” 这 与 
“东北 全 ?是 “和 鲁 菜 ” 的 一 个 分 支 也 相 一致 ; 至 于 社区 5 
内 “ 港 台 菜 ”“ 江 西 菜 ”被 划分 成 一 个 社区 ， 从 菜 的 辅料 
上 较 难 解释 , 但 通过 “ 港 台 菜 ”的 原料 可 以 看 出 , “高 汤 ” 
成 为 这 个 表 系 的 一 个 主要 辅料 。 


S 结 语 
本 文 结合 菜谱 信息 和 微 博 用 户 评论 内 容 进行 饮食 


社区 研究 , 结果 发 现 : 

(1) 省 份 地 区 被 划分 成 “ 鲜 成 味 "、“ 香 辣 味 "?、“ 其 
他 口味 ”这 三 个 口味 地 区 ; 

(2) “川菜 ”"、“ 云 贵 菜 ” 因 辅料 独特 很 少 与 其 他 菜系 
被 一 起 点 餐 ,“ 京 菜 "、“ 沪 菜 ”"、“ 和 鲁 菜 ”"、“ 东 北 菜 ” 常 被 
一 起 点 餐 ; 

(3) 地 区 菜系 体 之 间 存 在 一 定 程度 的 地 理 位 置 近 
邻 性 。 

相对 饮食 文化 文献 、 史 料 等 统计 整理 的 计量 方法 
来 说 , 本 文 基于 真实 数据 集 上 所 得 结论 会 更 有 说 服 力 ， 
但 也 存在 一 些 不 足 ， 即 所 获得 的 微 博 用 户 人 数 受 地 区 
差异 性 影响 大 ,发 达 地 区 人 数 与 边缘 地 区 人 数 悬 珠 太 
大 , 这 可 能 对 本 文 所 得 结论 有 一 定 的 影响 , 希望 未 来 
能 找到 更 好 的 办 法 克服 地 区 人 口 差异 性 以 进行 更 好 的 
分 析 。 


区 于 现代 图 书 情报 技术 


在 完成 饮食 社区 挖 据 后, 粗略 地 给 出 了 各 个 省 份 
地 区 划分 与 地 区 菜系 划分 , 并 没有 深入 地 挖掘 各 个 省 
份 社区 内 用 户口 味 及 地 区 菜系 点 餐 背 后 隐 合 的 潜在 关 
联 。 除 此 之 外 ,本 文 只 考虑 了 “ 提 及 ”关系 , 没有 对 这 种 
“ 提 及 ”关系 的 正 负 情 感 进行 分 析 , 这 些 将 是 下 一 步 研 
究 工作 。 
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Analyzing Food Community with Recipes and Weibo User Reviews 


Wu Xiaolan"” Zhang Chengzhi”’ 
!(School of Management Science and Engineering, Anhui University of Finance and Economics, 
Bengbu 233030, China) 
”Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China) 
3(Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210093, China) 


Abstract: [Objective] This study examines the structure of online food community with the help of large-scale real 
world data. [Methods] First, we collected recipes from meishij.net (a popular food network online) and user reviews 
from Sina Weibo (micro-blog) respectively. Second, we identified the Weibo users who mentioned recipes from 
meishij.net and mapped them to provinces and cuisines coordinate systems. Finally, we used community discovery 
algorithm to analyze the food community’s structure. [Results] The province and cuisines networks showed clear 
community structures. [Limitations] Demographic disparity might pose some effects to the conclusions. [Conclusions] 
The tastes of consumers from different provinces could be classified as “freshly salty”, “hot and spicy’”, as well as 
“others”. “Sichuan” or “Yungui” dishes are rarely ordered together, while “Jing”, “Hu’”, “Lu” and “Dongbe1”’ dishes are 
often ordered along with each other. Besides, the regional cuisines have some geographical proximity among 
themselves. 


Keywords: Food culture Regional cuisines Food community Web information organization 


CCC 进一步 增强 RightFind 内 容 工 作 流 解决 方案 


版 权 结 算 中 心 有 限 公司 (Copyright Clearance Center CCC) 是 一 家 致力 于 创造 全 球 许可 和 版 权 内 容 解 决 方案 的 公司 ， 其 于 
近日 公布 了 增强 其 基于 云 服务 的 RightFind 内 容 的 工作 流 解决 方案 。 

RightFind 为 用 户 提供 数 千 种 期 刊 即 时 便捷 的 访问 , 同时 还 能 帮助 管理 者 优化 在 采购 和 管理 内 容 上 的 支出 ,RightFind 7.0 
主要 包含 以 下 三 方面 的 功能 增强 : 

(1) 一 个 升级 的 用 户 界 面 ,以 简化 工作 流程 ,并 使 得 查找 内 容 变 得 更 加 容易 ; 

(2) 引入 CrossRef 数据 以 加 速 RightFind 上 新 近 出 版 文献 被 引信 息 的 揭示 ; 

(3) 增加 两 个 新 的 APL 允许 用 户 从 RightFind 库 中 提取 信息 ,从 而 使 得 他 们 能 够 在 其 他 应 用 程序 中 搜寻 RightFind 的 内 容 。 

CCC 公司 产品 和 服务 总 监 Lauren Tulloch 说 : “我 们 的 客户 追求 与 信息 之 间 的 无 缝 衔接。 我们 正在 加 强 平台 建设 , 以 提升 
RightFind 的 用 户 体 验 , 同时 使 得 其 他 应 用 从 RightFind 中 提取 数据 并 进行 利用 变 得 更 加 容易 。” 

作为 RightFind 内 容 工作 流程 解决 方案 组 件 的 一 部 分 , CCC 还 提供 RightFind XML 以 供 文本 挖掘 。 生 命 科 学 领域 的 科研 
人 员 可 以 为 来 自 6 000 多 份 同行 评议 期 刊 的 500 多 万 篇 文章 创建 带 全 文 的 XML 文件 , 并 在 第 三 方 文本 挖掘 软件 中 进行 遵循 
版 权 的 使 用 

(编译 自 : http://www.copyright.com/copyright-clearance-center-announces-latest-enhancements-to-rightfind-content-workflow- 
solution/) 
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